智能论文笔记

Distilling the Knowledge of Romanian BERTs Using Multiple Teachers

Andrei-Marius Avram , Darius Catrina , Dumitru-Clementin Cercel , Mihai Dascălu , Traian Rebedea , Vasile Păiş , Dan Tufiş

分类：自然语言处理 | 机器学习

2021-12-23

由于从大规模预先训练的语言模型的转移学习在自然语言处理中普遍存在，在计算受限环境中运行这些模型仍然是一个具有挑战性的问题。已经提出了包括知识蒸馏，网络量化或网络修剪的几种解决方案;然而，这些方法主要关注英语，从而在考虑低资源语言时扩大差距。在这项工作中，我们为罗马尼亚语推出了三种轻型和快速版本的罗马尼亚语言：Distil-Bert-Base-Ro，Distil-Robert-Base和DistilMulti-Bert-Bas-Ro。前两种模型因单独蒸馏在文献中提供的两个基础版本的罗马尼亚伯爵的知识，而最后一个是通过蒸馏它们的集合来获得的。为了我们的知识，这是第一次尝试创建公开可用的罗马尼亚蒸馏BERT模型，这是在五个任务上进行彻底评估的：语音标记，名为实体识别，情感分析，语义文本相似性和方言识别。这些基准测试的实验结果证明，我们的三种蒸馏模型在与老师的准确性方面保持最大的表现，而GPU的两倍于GPU和〜35 \％较小。此外，我们进一步测试了我们的学生和他们的老师之间的相似性，通过测量其标签和概率忠诚度以及回归忠诚度 - 在这项工作中引入的新指标。

translated by 谷歌翻译